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上 节 课 我 们 主要 介绍 了 SVM 的 对 偶 形 式 ， 即 dual SVM。Dual SVM 也 是 一 个 二 次 规划 问题 ， 可 以 用 QP 
来 进行 求解 。 之 所 以 要 推导 SVM 的 对 偶 形式 是 因为 : 首先 ， 它 展示 了 SVM 的 几何 意义 ;然后 ， 从 计算 
上 ， 求 解 过 程 "好 像 " 与 所 在 维度 dd 无关， 规避 了 d 很 大 时 难以 求解 的 情况 。 但 是 ， 上 节 课 的 最 后 ， 我 们 
也 提 到 dual SVM 的 计算 过 程 其 实 跟 d 还 是 有 关系 的 。 那 么 ， 能 不 能 完全 摆脱 对 d 的 依赖 ， 从 而 减少 
SVM 计算 量 呢 ?7 这 就 是 我 们 本 节 课 所 要 讲 的 主要 内 容 。 


Kernel Trick 


我 们 上 节 课 推导 的 dual SVM 是 如 下 形式 : 


half-way done: 
min ia Qoa = 
subjectto y’'a=0; 
a or n= 


» qnm = ynymz'Zm: inner product in Ro 
。need: zTzm = 中 (xn)7 中 (xm) calculated faster than O(a) 


其 中 是 拉 格 朗 日 因子 ， 共 N 个 ， 这 是 我 们 要 求解 的 ， 而 条 件 共有 N+1 个 。 我 们 来 看 向 量 Q@p 中 的 
qnm 二 Ynym 2 zm， 看 似 这 个 计算 与 4 无 关 ， 但 是 如 zm 的 内 积 中 不 得 不 引入 d 。 也 就 是 说 ， 如 果 d 
很 大 ， 计 算 22 z%, 的 复杂 度 也 会 很 高 ， 同 样 会 影响 QP 问题 的 计算 效率 。 可 以 说 ，gnm 二 Yn ym 2 zm 
这 一 步 是 计算 的 瓶颈 所 在 。 
其 实 问题 的 关键 在 于 zy zw 内 积 求解 上 。 我 们 知道 ，z 是 由 x 经 过 特征 转换 而 来 : 

zm = (zn) (rm) 
如 果 从 x 空间 来 看 的 话 ， 台 zwm 分 为 两 个 步骤 : 1. 进行 特征 转换 再 (z ) 和 更 (zm ); 2. 计算 再 (zj) 与 
十 (zm ) 的 内 积 。 这 种 先 转换 再 计算 内 积 的 方式 ， 必 然 会 引入 d 参数， 从 而 在 d 很 大 的 时 候 影响 计算 速 
度 。 那 么 ， 若 把 这 两 个 步骤 联合 起 来 ， 是 否 可 以 有 效 地 减 小 计算 量 ， 提 高 计算 速度 呢 ? 


我 们 先 来 看 一 个 简单 的 例子 ， 对 于 二 阶 多 项 式 转换 ， 各 种 排列 组 合 为 : 


2nd order polynomial transform 
和 (三 (1 蜀 ) 远 天 蜀 适 二 -向 允 雹 虱 , 过 ,者 汪汪 ) 
一 include both x1X2 & X2xi for Simplicity :-) 


这 里 提 一 下 ， 为 了 简单 起 见 ， 我 们 把 zo 二 1 包含 进来 ， 同 时 将 二 次 项 zl 7x2 和 x2 x1 也 包含 进来 。 转 换 
之 后 再 做 内 积 并 进行 推导 ， 得 到 : 


中 z(X) $2(x') 


1 + Dn 和 


这 1 j=1 


= 1 Ss 
i=1 jial J 
= 1+x’'x 二 (x7x')(x7x') 
其 中 z7 z/ 是 x 空 间 中 特征 向 量 的 内 积 。 所 以 ， 更 ? (z) 与 更 ? (2 ) 的 内 积 的 复杂 度 由 原来 的 O(d2 ) 变 成 
O(qd)， 只 与 x 空间 的 维度 d 有 关 ， 而 与 z 空 间 的 维度 d 无 关 ， 这 正 是 我 们 想 要 的 ! 


至 此 ， 我 们 发 现 如 果 把 特征 转换 和 z 空 间 计算 内 积 这 两 个 步骤 合并 起 来 ， 有 可 能 会 简化 计算 。 因 为 我 们 
只 是 推导 了 二 阶 多 项 式 会 提高 运算 速度 ， 这 个 特例 并 不 但 是 ， 我 们 还 是 看 到 了 和 希 

它 

望 。 


我 们 把 合并 特征 转换 和 计算 内 积 这 两 个 步骤 的 操作 叫做 Kernel Function ， 用 大 写字 母 K 表 示 。 例 如 刚刚 
讲 的 二 阶 多 项 式 例子 ， 它 的 kernel function 为 : 


Ksa(zx,7x’) = B(2)’ B(x’) 
Ks, (zx,7') 一 工 十 (xT x’) + (2 7x) 


有 了 kernel function 之 后 ， 我 们 来 看 看 它 在 SVM 里 面 如 何 使 用 。 在 dual SVM 中 ， 二 次 项 系数 q nm 中 有 z 
的 内 积 计算 ， 就 可 以 用 kernel function 蔡 换 : 


dn,m 一 Yn Ym Zt Zm 一 yn ym K (xn, Tm) 
所 以 ， 直 接 计算 出 K(xn, zm )， 再 代入 上 式 ， 就 能 得 到 gm” 的 值 。 
qn,m 值 计算 之 后 ， 就 能 通过 QP 得 到 拉 格 朗 日 央 子 Qn,。 然 后 ， 下 一 步 就 是 计算 b ( 取 an>0 的 点 ， 即 
SV) ，b 的 表达 式 中 包含 z， 可 以 作 如 下 推导 : 
N 
b= Vs 一 UO Zs 一 Us 一 Dara) 一 Ys 一 > angn (K(xn,, zs)) 


这 样 得 到 的 b 就 可 以 用 kernel function 表 示 ， 而 与 z 空 间 无 关 。 
最 终 我 们 要 求 的 矩 gsvM 可 以 作 如 下 推导 : 


N N 
gsvm (2) = sign(w’ B(x) +6b) = sign((》， Qnynzn) z+ 0b) = sign(》， Qanyn (K(xn, 7)) + 0) 
n=1 n=1 
至 此 ，dual SVM 中 我 们 所 有 需要 求解 的 参数 都 已 经 得 到 了 ， 而 且 整 个 计算 过 程 中 都 没有 在 z 空 间作 内 
只 ， 即 与 z 无 关 。 我 们 把 这 个 过 程 称 为 kernel trick， 也 就 是 把 特征 转换 和 计算 内 积 两 个 步骤 结合 起 来 ， 
用 kernel function 来 避免 计算 过 程 中 受 d 的 影响 ， 从 而 提高 运算 速度 。 


。 quadratic coefficient qn m = Jrzn7zm = YnYmK (Xn, Xm) 
sa optimal bias b? from SV (xs, ys), 


N N 
b=ys—iW Ezy pe ( 乞 onyozn】 Zs= ys— anyn (K(xn, xs)) 
1 


n=1 


sa optimal hypothesis gsvw: for test input X， 


N 
gsw(x) = sign (w’ ®(x)+b) = sign (到 QnynK (Xn, x) 十 o 


n=1 


那么 总 结 一 下 ，3 引 入 kernel funtion 后 ，SVM 算 法 变 成 : 


Hard-Margin M Algorithm 





加 qnm = ynymK (Xn, Xm);Pp = —1N; (A,c) for equ./bound constraints 
2 人 QP(QD, p; A, c) 
@bc (% = > anynk (xem) ) with SV (Xs, ys) 
SV indices n 
@ return SVs and their an as well as b such that for new X, 
gsvw(X) = sign 2 anynK(xn,x)+b 
SV indices n 


分 析 每 个 步骤 的 时 间 复 杂 度 为 : 


. 人 time complexity OUN2) . (kernel evaluation) 
. (2): QP with N variables and N + 1 constraints 
. (3) & (4): time complexity O(#SV): (kernel evaluation) 


我 们 把 这 种 引入 kernel function 的 SVM 称 为 kernel SVM， 它 是 基于 dual SVM 推 导 而 来 的 。kernel SVM 
同样 只 用 SV (an >0) 就 能 得 到 最 佳 分 类 面 ， 而 且 整 个 计算 过 程 中 摆脱 了 d 的 影响 ， 大 大 提高 了 计算 速 
度 。 

Polynomial Kernel 


我 们 刚刚 通过 一 个 特殊 的 二 次 多 项 式 导 出 了 相对 应 的 kernel， 其 实 二 次 多 项 式 的 kernel 形 式 是 多 种 的 。 


例如 ， 相 应 系数 的 放 缩 构成 完全 平方 公式 等 。 下 面 列举 了 几 种 常用 的 二 次 多 项 式 kernel 形 式 : 


(人 三 (TO Ko (II 三 TXT 
中 >(X) = (1, V2X4,..., V2Xg, X?,...,X3) 兮 Ko(X,X’) = 1+2x'x’ 十 (XTX')2 


中 2z(X) DE Xe °°°9 7xX3) 


会 Kz(X,X') =1 十 27X7TX' 十 ?2(XTX')2 


比较 一 下 ， 第 一 种 得 (z) ( 蓝 色 标记 ) 和 第 三 种 现 ; (z) (绿色 标记 ) 从 某 种 角度 来 说 是 一 样 的 ， 因 为 
都 是 二 次 转换 ， 对 应 到 同一 个 z 空 间 。 但 是 ， 它 们 系数 不 同 ， 内 积 就 会 有 差异 ， 那 么 就 代表 有 不 同 的 距 
离 ， 最 终 可 能 会 得 到 不 同 的 SVM margin。 所 以 ， 系 数 不 同 ， 可 能 会 得 到 不 同 的 SVM 分 界线 。 通 常情 况 
下 ,第 三 种 而 。 (z+) (绿色 标记 ) 简单 一 些 ， 更 加 常用 。 


K2z(x,X')=(1 十 7X7x')2 with7y >0 
s K2: somewhat ‘easier’ to calculate than Ke。 


se 中 > and 中 >: equivalent power, 
different inner product 一 > different geomeiry 


不 同 的 转换 ， 对 应 到 不 同 的 几何 距离 ， 得 到 不 同 的 距离 ， 这 是 什么 意思 呢 ?》 举 个 例子 ， 对 于 我 们 之 前 
介绍 的 一 般 的 二 次 多 项 式 kernel， 它 的 SVM margin 和 对 应 的 SV 如 下 图 (中 ) 所 示 。 对 于 上 面 介绍 的 完 
全 平方 公式 形式 ， 自 由 度 7 二 0.001， 它 的 SVM margin 和 对 应 的 SV 如 下 图 ( 左 ) 所 示 。 比 较 发 现 ， 
这 种 SVM margin 比 较 简单 一 些 。 对 于 自由 度 7 = 1000， 它 的 SVM margin 和 对 应 的 SV 如 下 图 ( 右 ) 
所 示 。 与 前 两 种 比较 ，margin 和 SV 都 有 所 不 同 。 

















(1 十 0.001X7X')2 1 十 XTX' 十 (X7X/)2 (1 十 1000X7X'/)2 


通过 改变 不 同 的 系数 ， 得 到 不 同 的 SVM margin 和 SV， 如 何 选择 正确 的 kernel， 非 常 重要 。 


归纳 一 下 ， 引 入 5 > 0 和 7y > 0， 对 于 Q 次 多 项 式 一 般 的 kernel 形 式 可 表示 为 : 


Ko(x,x’) = (C+?xX7xX)2 withy>0,c>0 

Ka(x,x) = (C+7yx x") withy>0,c>0 

Ko(x,x’) = (C+7Yx'x) withy>0,c>0 
所 以 ， 使 用 高 阶 的 多 项 式 kernel 有 两 个 优点 : 


。 得 到 最 大 SVM margin，SV 数 量 不 会 大 多， 分 类 面 不 会 太 复杂 ， 防 止 过 拟 合 ， 减 少 复杂 度 
。 计 算 过 程 避免 了 对 d 的 依赖 ， 大 大 简化 了 计算 量 。 


es。 embeds 中 = specially with parameters 
(6) 

e allows computing large-margin polynomial 
classification without dependence on d 








SVM + Polynomial Kernel: Polynomial SVM J 








10-th order polynomial 
with margin 0.1 


顺便 提 一 下 ， 当 多 项 式 阶 数 Q=1 时 ， 那 么 对 应 的 kernel 就 是 线性 的 ， 即 本 系列 课程 第 一 节 课 所 介绍 的 内 
容 。 对 于 linear kernel， 计 算 方 法 是 简单 的 ， 而 且 也 是 我 们 解决 SVM 问题 的 首选 。 还 记得 机 器 学 习 基 石 
课程 中 介绍 的 奥 卡 姆 剃刀 定律 (Occam's Razor) 吗 ? 


Gaussian Kernel 


刚 网 我们 介绍 的 Q 阶 多 项 式 kernel 的 阶 数 是 有 限 的 ， 即 特征 转换 的 d 是 有 限 的 。 但 是 ， 如 果 是 无 限 多 维 
的 转换 更 (Z) ， 是 否 还 能 通过 kernel 的 思想 ， 来 简化 SVM 的 计算 呢 ? 答案 是 肯定 的 。 


先 举 个 例子 ， 简 单 起 见 ， 假 设 原 空间 是 一 维 的 ， 只 有 一 个 特征 x， 我 们 构造 一 个 kernel function 为 高 斯 


K(x, x') 至 e-(z-—2) 


构造 的 过 程 正好 与 二 次 多 项 式 kernel 的 相反 ， 利 用 反 推 法 ， 先 将 上 式 分 解 并 做 泰勒 展开 : 


whenx= (x), K(x,x’) = exp(-—(x— Xx')?) 
= exp(— (xX))exp( — (x')*)exp(2xx’) 


WE exp(-(x)?)exp(-(x )?) (2 | 
i=0 


i 


— Noy /2 /2 yy 
= 2 (opto PY 20 (x') 


= g(x)'9(x)) 


with infinite dimensional $ (x) = exp( 一 X2) . (4 V 和 x V x2, ’ 





将 构造 的 K(x,x') 推 导 展开 为 两 个 B(x) 和 者 (x') 的 乘积 ， 其 中 : 


B(7)=e” .( EE EE 


通过 反 推 ， 我 们 得 到 了 现 (z)， 亚 (z) 是 无 限 多 维 的 ， 它 就 可 以 当成 特征 转换 的 函数 ， 且 d 是 无 限 的 。 
这 种 更 (z) 得 到 的 核 函 数 即 为 Gaussian kernel。 


更 一 般 地 ， 对 于 原 空间 不 止 一 维 的 情况 (d>1) ， 引 入 缩放 因子 7 > 0， 它 对 应 的 Gaussian kerne| 表 
达 式 为 : 

开 (z, 2) = ee 
那么 3| 入 了 高 斯 核 函 数 ， 将 有 限 维度 的 特征 转换 拓展 到 无 限 的 特征 转换 中 。 根 据 本 节 课 上 一 小 节 的 内 
容 ， 由 K， 计 算得 到 an 和 b， 进 而 得 到 和 矩 gsvM 。 将 其 中 的 核 函 数 K 用 高 斯 核 函 数 代 蔡 ， 得 到 : 


gsyM(z) = sign(》、 an 天 (zwz) 十 b = sign(》 onynel ll) + b) 
SV SV 


通过 上 式 可 以 看 出 ，gsym 有 n 个 高 斯 函数 线性 组 合 而 成 ， 其 中 n 是 SV 的 个 数 。 而 且 ， 每 个 高 斯 国 数 的 
中 心 都 是 对 应 的 SV。 通 常 我 们 也 把 高 斯 核 函 数 称 为 径 向 基 函 数 (Radial Basis Function, RBF) 。 


gsw(x) = sign (eco 


SV 


Sign (5 QnyneXxp (—llx xnll?) o 


SV 


se linear combination of Gaussians centered at SVs xn 
s also called Radial Basis Function (RBF) kernel 


总 结 一 下 ，kernel SVM 可 以 获得 large-margin 的 hyperplanes， 并 且 可 以 通过 高 阶 的 特征 转换 使 瓦 ,, 尽 
可 能 地 小 。kernel 的 引入 大 大 简化 了 dual SVM 的 计算 量 。 而 且 ，Gaussian kerne| 能 将 特征 转换 扩展 到 
无 限 维 ， 并 使 用 有 限 个 SV 数 量 的 高 斯 函数 构造 出 矩 gsvMr 。 


large-margin 

hyperplanes 

+ higher-order transforms with kernel trick 
not many 

sophisticated 










。 transformed vector z = P(x) 一 > efficient kernel K(x, x’) 
e Store optimal w —> store a few SVs and an 


值得 注意 的 是 ， 缩 放 因子 7 取 值 不 同 ， 会 得 到 不 同 的 高 斯 核 函 数 ，hyperplanes 不 同 ， 分 类 效果 也 有 很 
大 的 差异 。 举 个 例子 ，7? 分 别 取 1, 10, 100 时 对 应 的 分 类 效果 如 下 : 














O O 
oO O oO 号 O 
o © O00 op O o © O00 op OD 
O D 
oo x*\O 0 cp 已 o 
呈 这 © O | 
-a oo 二 | 
wx Oo x Do “名 “© 
x mm 
exp(—1|lx—x'l2) ~ exp(—10llx—x'2) exp(—100|lx—x'2) 


从 图 中 可 以 看 出 ， 当 7 比较 小 的 时 候 ， 分 类 线 比较 光滑 ， 当 7 越 来 越 大 的 时 候 ， 分 类 线 变 得 越 来 越 复杂 
和 扭曲 ， 直 到 最 后 ， 分 类 线 变 成 一 个 个 独立 的 小 区 域 ， 像 小 岛 一 样 将 每 个 样本 单独 包 起 来 了 。 为 什么 
会 出 现 这 种 区 别 呢 ? 这 是 因为 7 越 大 ， 其 对 应 的 高 斯 核 函 数 越 尖 瘦 ， 那 么 有 限 个 高 斯 核 函 数 的 线性 组 合 
就 比较 离散 ， 分 类 效果 并 不 好 。 所 以 ，SVM 也 会 出 现 过 拟 合 现象 ，7 的 正确 选择 尤为 重要 ， 不 能 大 

大 。 


Comparison of Kernels 
目前 为 止 ， 我 们 已 经 介绍 了 几 种 kernel， 下 面 来 对 几 种 kernel 进 行 比较 。 


首先 ，Linear Kerne| 是 最 简单 最 基本 的 核 ， 平 面 上 对 应 一 条 直线 ， 三 维 空间 里 对 应 一 个 平面 。Linear 
Kernel 可 以 使 用 上 一 节 课 介绍 的 Dual SVM 中 的 QP 直 接 计 算得 到 。 


K(x,x’) =x’'x 





Linear Kernel 的 优点 是 计算 简单 、 快 速 ， 可 以 直接 使 用 QP 快 速 得 到 参数 值 ， 而 且 从 视觉 上 分 类 效果 非 
常 直观 ， 便 于 理解 ; 缺点 是 如 果 数 据 不 是 线性 可 分 的 情况 ，Linear Kernel 就 不 能 使 用 了 。 


e Safe—linear first， 
remember? :-) 

。 fast—with Special QP 
solver in primal 

e Very explainable—w and 
SVs say something 


e restricted 
一 not always separable?! 





* K(x,x)= (C+7yx Xx) 


其 
六 和 装 
其 


Polynomial Kernel 的 优点 是 阶 数 Q 可 以 灵活 设置 ， 相 比 linear kernel 限 制 更 少 ， 更 贴近 实际 样本 分 布 ; 
缺点 是 当 Q 很 大 时 ，K 的 数值 范围 波动 很 大 ， 而 且 参 数 个 数 较 多 ， 难 以 选择 合适 的 值 。 


Pros 


e less restricted than linear 


se Strong physical control 
—‘knows’ degree Q 


。 numerical difficulty for 
large Q 
e。 |C+7Yyx'x|<1:K—0 
e |C+7Yx'x’| > 1: K — big 
。 three parameters (7,¢, Q) 
一 more difficult to select 








对 于 Gaussian Kernel， 表 示 为 高 斯 国 数 形式 。 


K(X,X') = exp( 一 ?lx 一 xl) 





Gaussian Kernel 的 优点 是 边界 更 加 复杂 多 样 ， 能 最 准确 地 区 分 数据 样本 ， 数 值 计算 K 值 波动 较 小 ， 
且 只 有 一 个 参数 ， 容 易 选 择 ; 缺点 是 由 于 特征 转换 到 无 限 维度 中 ，w 没 有 求解 出 来 ， 0 
linear kernel， 而 且 可 能 会 发 生 过 拟 合 。 


。 mysterious—no W 
。 Slower than linear 
e too powerful?! 


e more powerful than 
linear/poly. 


。 bounded—less numerical 
difficulty than poly. 
e one parameter 


Ws a ey only—easier to select 
>o oe” © than poly. 





除了 这 三 种 kernel 之 外 ， 我 们 还 可 以 使 用 其 它 形式 的 kernel。 首 先 ， 我 们 考虑 kernel 是 什么 ? 实际 上 
kernel 代 表 的 是 两 笔 资 料 x 和 x'， 特 征 变换 后 的 相似 性 即 内 积 。 但 是 不 能 说 任何 计算 相似 性 的 函数 都 可 
以 是 kernel。 有 效 的 kernel 还 需 满足 几 个 条 件 : 


。K 是 对 称 的 
。K 是 半 正 定 的 


这 两 个 条 件 不 仅 是 必要 条 件 ， 同 时 也 是 充分 条 件 。 所 以 ， 只 要 我 们 构造 的 K 同 时 满足 这 两 个 条 件 ， 那 它 
就 是 一 个 有 效 的 kernel。 这 被 称 为 Mercer 定理 。 事 实 上 ， 构 造 一 个 有 效 的 kernel 是 比较 困难 的 。 


。kernel represents special similarity: 中 (x)7 中 (x') 
。 any Similarity 一 valid kernel? not really 


。 necessary & sufficient conditions for valid kernel: 
Mercers condition 
se Symmetric 
e let k; = K(xi;, Xj), the matrix K 


中 (xi)7 中 (xi1) P(x1) P(x2) ... P(x1) P(xN) 

中 (xz) "中 (xi) P(x2)' P(x2) ... P(x2)' P(xN) 

(xw) TO(x1) OxN)T®(x2) ... O(xN)T®(xn) 
= [zzz ... zn|'[z z2 ... zn | 


ZZ" must always be positive semi-definite 


总 结 


本 节 课 主要 介绍 了 Kernel Support Vector Machine。 首 先 ， 我们 将 特征 转换 和 计算 内 积 的 操作 合并 到 
一 起 ， 消 除了 d 的 影响 ， 提 高 了 计算 速度 。 然 后 ， 分 别 推导 了 Polynomial Kernel 和 Gaussian Kernel， 
并 列举 了 各 自 的 优 缺 点 并 做 了 比较 。 对 于 不 同 的 问题 ， 应 该 选择 合适 的 核 函 数 进行 求解 ， 以 达到 最 佳 
的 分 类 效果 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台 湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 


